TITRE: Cartographie d'un environnement sonore par un robot mobile

LABO: Équipes PAROLE et MAIA, Inria Nancy (http://parole.loria.fr/ et http://maia.loria.fr/)
ENCADRANTS: Emmanuel Vincent (emmanuel.vincent@inria.fr) et François Charpillet (francois.charpillet@inria.fr)
DÉBUT: entre janvier et avril 2014
DURÉE: 4 à 6 mois
RÉMUNÉRATION: gratification
CANDIDATURE: envoyer un CV et une lettre de motivation à emmanuel.vincent@inria.fr

L'audition robotique est un domaine de recherche en plein essor, qui vise à doter les robots de la capacité d'analyser leur environnement sonore au même titre que les humains. Le problème consiste notamment à reconnaître, localiser et séparer la parole et les diverses sources sonores présentes dans l'environnement. Un certain nombre de techniques existent qui reposent sur l'analyse du son perçu à chaque instant, sans exploiter les sons perçus auparavant [1,2].

Le sujet de recherche proposé est de faire une cartographie d'un environnement sonore par un robot mobile, c'est-à-dire d'apprendre les caractéristiques des sources sonores présentes dans l'environnement au fur et à mesure des déplacements du robot, telles que leur position spatiale, leurs mouvements, leur contenu spectral, et leur caractère intermittent éventuel. Dans un premier temps, on supposera que la position du robot est connue et que les sources sont immobiles et on cherchera à effectuer conjointement la localisation et l'apprentissage du contenu spectral des sources [3,4]. Dans un deuxième temps, on supposera que la position est inconnue et on cherchera à l'estimer en même temps que la position des sources par une approche de "simultaneous localization and mapping" (SLAM) [5,6]. Les algorithmes conçus seront validés dans le cadre de la plateforme expérimentale "appartement intelligent" d'Inria Nancy [7] avec un robot TurtleBot [8] équipé d'une Kinect [9] et de librairies existantes pour l'audition robotique [10].

Ce stage vise à obtenir un premier résultat dans cette direction de recherche ambitieuse, qui sera poursuivie par une thèse.

Profil recherché:
Master 2 en traitement du signal et de l'image, en robotique, ou en mathématiques appliquées.
Expérience de programmation en C/C++.


[1] U.-H. Kim and H.G. Okuno, "Improved binaural sound localization and tracking for unknown time-varying number of speakers", Advanced Robotics 27(15): 1161-1173, 2013.

[2] J.-M. Valin, S. Yamamoto, J. Rouat, F. Michaud, K. Nakadai, and H.G. Okuno, "Robust recognition of simultaneous speech by a mobile robot", IEEE Transactions on Robotics 23(4): 742-752, 2007.

[3] C. Blandin, A. Ozerov, and E. Vincent, "Multi-source TDOA estimation in reverberant audio using angular spectra and clustering", Signal Processing 92: 1950-1960, 2012.

[4] E. Vincent, M.G. Jafari, S.A. Abdallah, M.D. Plumbley, and M.E. Davies, "Probabilistic modeling paradigms for audio source separation", in Machine Audition: Principles, Algorithms and Systems, IGI Global, pp. 162-185, 2010.

[5] H. Durrant-Whyte and T. Bailey, "Simultaneous localization and mapping (SLAM): Part I the essential algorithms", Robotics and Automation Magazine 13(2): 99–110, 2006.

[6] J. Mullane, B.-N. Vo, M.D. Adams, and B.-T. Vo, "A random-finite-set approach to Bayesian SLAM", IEEE Transactions on Robotics 27(2): 268–282, 2011.

[7] http://infositu.loria.fr/

[8] http://www.turtlebot.com/

[9] http://www.microsoft.com/en-us/kinectforwindows/

[10] http://winnie.kuis.kyoto-u.ac.jp/HARK/